#экспертные траектории01.11.2025
SRL: как научить 7B модели рассуждать шаг за шагом в сложной математике и коде
SRL превращает экспертные траектории в покомпонентные вознаграждаемые действия и позволяет моделям генерировать приватные рассуждения перед каждым шагом, что даёт плотный сигнал обучения и улучшает показатели 7B моделей на сложных задачах